旅行销售人员问题(TSP)是一个经典的资源分配问题,用于找到完成一组任务的最佳顺序,同时最大程度地减少(或最大化)相关的目标函数。它被广泛用于机器人技术,用于诸如计划和计划之类的应用程序。在这项工作中,我们使用增强学习(RL)解决了TSP的两个目标。通常,在多目标优化问题中,相关的目标函数本质上可能是冲突的。在这种情况下,最优性是根据帕累托最优性定义的。目标空间中的这些帕累托最佳解决方案组成帕累托前部(或边境)。每个解决方案都有其权衡。我们介绍了Pareto Frontier近似网络(PA-NET),该网络为Bi-Objective旅行销售员问题(BTSP)生成了良好的Pareto前部近似值。首先,将BTSP转换为受约束的优化问题。然后,我们使用拉格朗日放松和政策梯度来训练我们的网络来解决这一受约束的问题。使用PA-NET,我们改善了现有基于RL的方法的性能。用于测量帕累托阵线最佳性的超量度量的平均改进为2.3%。同时,PA-NET的推理时间更快。最后,我们介绍了PA-NET的应用,以在机器人导航任务/覆盖范围计划中找到最佳的访问顺序。我们的代码可在项目网站上找到。
translated by 谷歌翻译